Apprentissage statistique pour la constitution des corpus d'évaluation
نویسندگان
چکیده
RÉSUMÉ. La constitution de corpus d’évaluation est une étape essentielle pour évaluer la performance des systèmes de recherche d’information. Le coût de développement de tels corpus est en général assez élevé à cause en particulier de l’effort humain nécessaire à l’évaluation de la pertinence des documents pour chaque requête. Cette difficulté devient un véritable goulot d’étranglement dans le cas de corpus de très grande taille. Le travail que nous présentons vise à sélectionner adaptativement les documents des corpus d’évaluation. Nous utilisons pour cela des algorithmes d’apprentissage statistique qui optimisent des critères d’ordonnancement. Nous présentons des essais d’un algorithme d’ordonnancement, dit RankBoost, sur des données de TREC et analysons les résultats obtenus au moyen de différents critères. Les résultats de ces analyses montrent que la méthode proposée permet de créer des corpus d’évaluation de qualité supérieure à la méthode de TREC.
منابع مشابه
Validation statistique des cartes de Kohonen en apprentissage supervisé
Résumé. En apprentissage supervisé, la prédiction de la classe est le but ultime. Plus largement, on attend d'une bonne méthodologie d'apprentissage qu'elle permette une représentation des données susceptible de faciliter la navigation de l'utilisateur dans la base d'exemples et d'aider au choix des exemples et des variables pertinents tout en assurant une prédiction de qualité dont on comprenn...
متن کاملStatistical learning for image-based personalization of cardiac models. (Apprentissage statistique pour la personnalisation de modèles cardiaques à partir de données d'imagerie)
Cette thèse porte sur un problème de calibration d’un modèle électromécanique de cœur, personnalisé à partir de données d’imagerie médicale 3D + t ; et sur celui — en amont — de suivi du mouvement cardiaque. Les perspectives à long terme de la simulation personnalisée de la fonction cardiaque incluent l’aide au diagnostic et à la planification de thérapie, ainsi que la prévention des risques ca...
متن کاملSymbolic and statistical learning for chunking : comparison and combinations (Apprentissage symbolique et statistique pour le chunking: comparaison et combinaisons) [in French]
RÉSUMÉ Nous décrivons dans cet article l’utilisation d’algorithmes d’inférence grammaticale pour la tâche de chunking, pour ensuite les comparer et les combiner avec des CRF (Conditional Random Fields), à l’efficacité éprouvée pour cette tâche. Notre corpus est extrait du French TreeBank. Nous proposons et évaluons deux manières différentes de combiner modèle symbolique et modèle statistique ap...
متن کاملTypicalité et contribution des sujets et des variables supplémentaires en Analyse Statistique Implicative
Résumé. L’analyse statistique implicative traite des tableaux sujets x variables afin d’extraire règles et métarègles statistiques entre les variables. L’article interroge les structures obtenues représentées par graphe et hiérarchie orientés afin de dégager la responsabilité des sujets ou des groupes de sujets (variables supplémentaires) dans la constitution des chemins du graphe ou des classe...
متن کاملSélection de modèles et sélection d’estimateurs pour l’Apprentissage statistique (Cours Peccot) Premier cours: Apprentissage statistique et sélection d’estimateurs
1. Le problème de l’apprentissage statistique 2 1.1. Cadre général 2 1.2. Exemple : prédiction 2 1.3. Exemple : régression 2 1.4. Exemple alternatif : régression sur un plan d’expérience fixe 3 1.5. Autres exemples 4 2. Estimateurs 4 2.1. Définition générale 4 2.2. Consistance, No Free Lunch 5 2.3. Exemples : Estimateurs par minimum de contraste 5 2.4. Exemple : Estimateurs des moindres carrés ...
متن کامل